JSAI2026 双曲空間上でのword2vec
テーマ
単語の意味的な階層構造を、埋め込み空間の幾何構造として表せるかを検証する 背景課題
通常のword2vecは単語の類似性を表しやすい
一方で、上位語・下位語のような階層関係は表しにくい
双曲空間は木構造や階層構造を低次元で表しやすい性質を持つ
提案
ポアンカレ球モデル上で Skip-gram型word2vecを実装 双曲空間版とユークリッド空間版を比較
実験
fruit / apple / banana などの語で、上位語と下位語の関係を観察
一部単語の出現頻度を調整し、頻度の影響も見る
結論
双曲空間は階層構造を表す器として有望
しかし、テキスト共起だけから階層性を安定して抽出するのは難しい
「抽象度」と「頻度」が相関する場合には、それらしく見える
気になる daiiz.icon
モチベーション
構造化されていない。プレーンテキストから構造抽出することができる空間を定義できるのではないかというモチベーションで始めたが、今回の用途では向いていなかったという報告
元々ポアンカレ球は木構像のデータに対してはものすごく効果を発揮するが、今回の用途ではダメだった
最近ポアンカレ球関連のアイデアを読み漁っていたので興味がある
うまい扱い方のヒントがあるかもしれないので聞いておきたい
双曲空間と意味階層の本質的な関係
word2vecの目的関数だけで階層性を学習できるのか